草庐IT

SpringBoot 接入 Spark

全部标签

apache-spark - 具有太多可抢占节点的 Google dataproc spark 集群有时会挂起

当在只有2个不可抢占的工作节点和其他100~个可抢占节点的dataproc上运行spark集群时,我有时会得到一个完全不可用的集群,原因是太多的连接错误、数据节点错误、丢失的执行程序,但仍在跟踪心跳...总是出现这样的错误:18/08/0815:40:11WARNorg.apache.hadoop.hdfs.DataStreamer:ErrorRecoveryforBP-877400388-10.128.0.31-1533740979408:blk_1073742308_1487inpipeline[DatanodeInfoWithStorage[10.128.0.35:9866,DS

apache-spark - spark-sql读取hive表失败

我想通过hivejdbc连接将整个hive表加载到spark内存中。并且已经在我的项目中添加了hive-site.xml、hdfs-site.xml。由于成功获取列名(eg.role_id),spark已经连接到hive。但是spark似乎将列名加载为数据,并抛出异常。这是我的代码:valdf=spark.read.format("jdbc").option("driver",CommonUtils.HIVE_DIRVER).option("url",CommonUtils.HIVE_URL).option("dbtable","datasource_test.t_leave_map_

记录打包部署Springboot项目到Windows环境

Springboot项目开发完成后要做的工作就是部署了,这里记录下打包部署的过程。这个项目是一个SpringBoot多模块项目,包含了一个父工程,一个子模块和一个工具模块。其中子模块里有启动类,而工具模块没有。因此这三者的pom文件不一样。1.打包1.1准备用Idea加载开发好的springboot项目。目录结构截图如下:修改配置文件,按生成环境prod配置相关的redis,mysql参数,不赘述。1.2. pom整理具体pom整理如下,并附上具体pom。a.父项目中的包类型中填pom,子类中的填jar,b.父项目要用模块包含子项目。      gs-dp-common    gs-dp-ad

基于JAVA校园失物招领应用开发设计与实现(Springboot框架)研究背景和意义、国内外现状

 博主介绍:黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者,CSDN博客专家,在线教育专家,CSDN钻石讲师;专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程,免费项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频;项目的界面和功能都可以定制,包安装运行!!!如果需要联系我,可以在CSDN网站查询黄菊华老师在文章末尾可以获取联系方式基于JAVA校园失物招领应用开发设计与实现(Springboot框架)一、研究背景和意义研究背景:在校园生活中,学生经常会遇到丢失物品的情况,如书本、钱包、钥匙等。传统的失

apache-spark - Apache Spark 2.3.1 - pyspark.sql.SparkSession.builder.enableHiveSupport() 是必要的吗?

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我对Hive的理解是它提供了一种使用SQL命令查询HDFS的方法。好的,但还有Spark。Spark拥有所有RDD类方法,这些方法完全有能力,但我更喜欢SQL。输入SparkSQL。所以现在我可以使用SparkSQL通过SQL查询我的数据库,为什么Hive会出现?文档说:enableHiveSupport():EnablesHivesupport,includingconnectivity

apache-spark - 将环境变量传递给 YARN 容器

我们有一个复杂的环境,它使用多种技术计算日常任务:SPARKPY-SPARKJavaMapReduce和HIVE。最近我们集成了一个新系统,可以在运行时对服务进行动态解析。该系统在任务初始化之前(动态地)更新环境变量。有一个库可以读取环境变量并对其进行处理(无关紧要)。因此,每个任务在其执行器/映射器/缩减器环境中都需要这个环境变量。我们的任务由YARN资源管理器管理。总结一下,我想传递YARN环境变量,它将在所有容器(ApplicationMaster和执行器/映射器/缩减器)上公开。到目前为止我尝试过的事情:SPARK-我玩过:spark-submit--confspark.yar

r - 在 sparklyr 中断开连接后,spark 数据帧是否会自动删除?如果没有,我们该怎么做?

在关闭连接时,以下列方式复制到spark的数据帧会发生什么情况?library(sparklyr)library(dplyr)sc如果它们没有被自动删除,除了按以下方式删除每个数据帧之外,是否有任何简单的方法可以删除session期间创建的所有数据帧?sc%>%spark_session()%>%invoke("catalog")%>%invoke("dropTempView","iris")即使它是自动完成的,当spark看到有必要清理临时View时,它是立即完成还是延迟完成?我有一个脚本,它不断调用spark并将临时数据帧复制到spark中以进行一些操作。如果最终没有删除,我担心那

apache-spark - 在用压缩文件替换 HDFS 中的小文件时如何避免破坏事件的 Hive/Presto 查询?

我们有100多个HDFS分区,我们每天每小时都会写入这些分区。分区是每天进行的,以便直接加载到Hive中,数据以Parquet格式写入。我们遇到的问题是,因为我们想尽可能快地获取数据可查询,每小时写入导致很多小文件。有很多例子,例如Howtocombinesmallparquetfilestoonelargeparquetfile?对于合并代码;我的问题是在移动/替换新压缩的文件以替换小文件时如何避免破坏人们的主动查询? 最佳答案 Metastore对每个分区都有一个文件系统位置。该位置通常基于表和分区:hdfs://namenod

Java spark 到 hive 表插入到动态分区异常

我有以下代码,其中我将数据插入到表txnaggr_rt_fact中,该表有2列分区txninterval和intervaltype。我在sparksql中启用了动态分区。如果分区已经存在则没有问题。数据正在插入到表中,但如果分区不存在,则会出现异常,但如果分区已经存在,则没有问题。SparkSessionspark=SparkSession.builder().appName("JavaSparkHiveExample").config("spark.sql.warehouse.dir","hdfs://localhost:8020/user/hive/warehouse").conf

apache-spark - Yarn 的 "Application Type"在哪里/如何定义?

如果向ApacheYARN集群提交新作业,状态页面通常会指示作业实际是如何提交的(除其他事项外):ApplicationType:SPARK这表明用户很可能使用spark-submit向资源管理器发布了一个新作业。是否可以像更改应用程序名称一样通过参数更改该字符串的值? 最佳答案 应用类型在Spark设置yarn应用上下文时设置。AFAIK,无法更改某些配置的方式。如果它真的很重要,您将不得不在源代码中覆盖它。下面的实现,https://github.com/apache/spark/blob/01c3dfab158d40653f8